评估基准

首页

评估基准

LongCite

LongCite是清华大学研发的一项旨在提升大型语言模型在长文本问答中可信度和可验证性的项目。它通过生成细粒度的句子级引用，帮助用户验证模型回答的准确性。LongCite包含LongBench-Cite评估基准、CoF自动化数据构建流程、LongCite-45k数据集，以及基于该数据集训练的模型。这些模型能够处理长文本内容，提供准确的问答服务，并附带可追溯的引用，增强信息的透明度和可靠性。

AI项目与工具 2025年06月12日 10 点赞 0 评论 689 浏览

WorldScore是由斯坦福大学推出的统一世界生成模型评估基准，支持3D、4D、图像到视频（I2V）和文本到视频（T2V）等多种模态。它从可控性、质量和动态性三个维度进行评估，涵盖3000个测试样本，包括静态与动态、室内与室外、逼真与风格化等多种场景。WorldScore具备多场景生成、长序列支持、图像条件生成、多风格适配等功能，适用于图像到视频、图像到3D生成以及自动驾驶场景模拟等应用，为研究

AI项目与工具 2025年06月12日 87 点赞 0 评论 867 浏览

评估基准 首页 评估基准

列表 默认 浏览次数 发布日期

LongCite

WorldScore

评估基准

首页

评估基准

列表

默认

浏览次数

发布日期